IDENTIFICAÇÃO

Título do Plano de trabalho: Controle de qualidade dos dados da temperatura do ar, para as estações meteorológicas automáticas do INMET na região sul do Brasil

Nome do Bolsista: Jonas Barboza Corrêa

Nome do Orientador: Jônatan Dupont Tatsch

Local de execução: Laboratório de Hidrometeorologia (LHMet - UFSM)

1. INTRODUÇÃO

As observações meteorológicas (e relacionadas ambientais e geofísicas) são feitas por uma variedade de razões. Eles são usados para a preparação em tempo real de análises meteorológicas, previsões e advertências meteorológicas severas, para o estudo do clima, para operações locais dependentes do clima (por exemplo, operações locais de vôo de aeródromo, trabalhos de construção em terra e no mar), para hidrologia e meteorologia agrícola, e para pesquisa em meteorologia e climatologia (WMO, 2012).

Nos últimos anos, a automação da estação e o aumento das velocidades de transmissão de dados estão em progresso constante. É necessário um controle de qualidade rápido e efetivo para identificação e sinalização de erros ou observações suspeitas para proporcionar acesso rápido à informação e disseminação de observações confiáveis quanto possível aos usuários. Geralmente, os objetivos para o desenvolvimento de sistemas de controle de qualidade são os seguintes: tornar o controle de qualidade mais eficaz e mais próximo do tempo real; identificar erros de calibração, medição e comunicação tão próximos da fonte de observação quanto possível; focar no desenvolvimento automático de algoritmos de controle de qualidade; desenvolver um sistema abrangente de sinalização para indicar o nível de qualidade dos dados; para facilitar aos usuários de dados identificar dados suspeitos e errados e destacar os valores corrigidos (VEJEN et al., 2002). Entre os principais tipos de erros, encontram-se os erros aleatórios, os erros sistemáticos, erros grandes e os erros micrometeorológicos.

Os erros aleatórios são distribuídos de forma mais ou menos simétrica em torno de zero e não dependem do valor medido. Erros aleatórios, por vezes, resultam em superestimação e às vezes em subestimação do valor real. Em média, os erros se cancelam mutuamente. Os erros sistemáticos, por outro lado, são distribuídos de forma assimétrica em torno de zero. Em média, esses erros tendem a polarizar o valor medido acima ou abaixo do valor real. Uma razão de erros aleatórios é uma deriva a longo prazo de sensores. Erros grandes (ásperos) são causados por mau funcionamento de dispositivos de medição ou por erros cometidos durante o processamento de dados; Os erros são facilmente detectados por cheques. Os erros micrometeorológicos (representatividade) são o resultado de perturbações em pequena escala ou sistemas meteorológicos que afetam a observação do tempo. Estes sistemas não são completamente observáveis pelo sistema de observação devido à resolução temporal ou espacial do sistema de observação. No entanto, quando tal fenômeno ocorre durante uma observação de rotina, os resultados podem parecer estranhos em comparação com as observações circundantes que ocorrem ao mesmo tempo (ZAHUMENSKÝ, 2004).

No Brasil, os dados fornecidos, em sua maioria, encontram-se em sua forma bruta, sem que a qualidade dos mesmos seja verificada. Este trabalho consiste em, através da aplicação de certos métodos de controle de qualidade (QC), verificar e rotular tais dados como suspeitos ou não, para que futuramente possam serem melhores aproveitados em seu uso, com um maior grau de confiabilidade.

2. METODOLOGIA

A metodologia adotada consiste em duas partes, inicialmente os dados brutos passarão por uma seleção inicial baseada em certos fatores, em seguida, eles serão submetidos à uma série de testes de controle de qualidade, que os qualificarão como suspeitos ou não, além, de obter-se certas informações relevantes a respeito deles.

2.1 SELEÇÃO DO PERÍODO DE DADOS

Neste trabalho, serão usados dados horários da Temperatura do Ar (Tar) de 91 Estações Meteorológicas Automáticas (EMAs) do Instituto Nacional de Meteorologia (INMET), localizadas na região sul do Brasil (Figura 01a). Ao todo, os estados do Paraná (PR), Rio Grande do Sul (RS) e Santa Catarina (SC), possuem, respectivamente, 27, 42 e 22 EMAs em funcionamento, tendo períodos de funcionamento que variam de pouco mais de um mês (A897 - Cambará do Sul), até mais de 16 anos (A801 - Porto Alegre) (Figura 01b). Os dados horários de Tar utilizados estão no padrão do Tempo Universal Coordenado (UTC).

O modelo dos sensores de temperatura usado é o QMH102 da fabricante Vaisala, estes possuem acurácia de ±0,2°C, e são instalados a uma altura de 2 metros acima do solo. VAISALA, 2002. Uma estação meteorológica automática (EMA) deve ser instalada em uma área gramada fechada com um cercado de tela metálica de 14m x 18m e um mínimo de \(50m^2\) livre de efeitos de construções ao seu redor e protegida contra roubo e vandalismos. INMET, 2011

Figura 01 – (a) Localização das 91 EMAs do INMET no sul do Brasil, (b) Período de dados das 91 EMAs em anos.

Dois critérios serão usados para a seleção dos dados que serão utilizados, (i) as estações meteorológicas automáticas devem terem no mínimo quatro anos de dados (podendo serem descontínuos), para haver um tempo mínimo para análise ser consistente, e (ii) o período de análise terá início em 01/01/2008, tendo como data final 31/12/2016. Este ano inicial foi escolhido, pois a partir dele notou-se um bom acrescimo na quantidade de EMAs existente (Figura 02), além de que, a distribuição espacial delas tornou-se mais homogênea (Figura 03a e 03b)

Figura 02 – EMAs com início de funcionamento pré-pós 2008

Figura 03 – (a) Disponibilidade mensal para cada uma das 91 EMA da região sul do Brasil. (b) Evolução temporal mensal do número de EMAs.

Para que a seleção fosse feita, antes, foi necessário uma regularização das séries temporais de cada EMA, para assim garantir que todas tenham 24 horas em cada dia, e 365 (ou 366 dias, se ano bissexto) em cada ano.

Após a seleção, restaram ao todo 80 EMAs para análise, estando 24 localizadas no estado do Paraná (PR), 36 no estado do Rio Grande do Sul (RS) e 20 no estado de Santa Catarina (SC), com disponibilidade de dados variando de 41,5% (A883 - Ibirubá) até 99,4 (A803 - Porto Alegre) (Figura 04). No quadro 2.1 é mostrado as EMAs selecionadas que apresentaram o maior período de dados.

Figura 04 – Disponibilidade das 80 EMAs selecionadas do período de 2008 até 2016

Tabela 01 – Informações sobre as EMAs: Início de Funcionamento, Período, Latitude, Longitude, Altitude.

Na realização deste trabalho, foi utilizado a linguagem de programação R (Version 1.1.383 – © 2009-2017 RStudio, Inc.) no sistema operacional Linux Mind (“Rosa” Version), com o software livre com ambiente de desenvolvimento integrado, Rstudio.

Os seguintes pacotes foram utilizados: dplyr (WICKHAM, 2017), DT (XIE, 2016), ggplot2 (WICKHAM, 2016), kableExtra (ZHU, 2017), knitr (XIE, 2017), lubridate (GROLEMUND, 2016), magrittr (BACHE; WICKHAM, 2014), openair (CARSLAW; ROPKINS, 2017), padr (THOEN, 2017), plyr (WICKHAM, 2016), raster (HIJMANS, 2016), scales (WICKHAM, 2017), stringr (WICKHAM, 2017), tidyverse (WICKHAM, 2017).

2.2 TESTES DE CONTROLE DE QUALIDADE

Os testes aplicados aos dados da temperatura do ar, serão dividos em categorias, sendo elas: Limites do Intervalo de Variação, Persistência Temporal, Consistência Interna, Consistência Temporal, Consistência Espacial e Homogeneidade Temporal. Os dados serão considerados suspeitos quando os testes abaixo forem válidos.

2.2.1 Limites do Intervalo de Variação (QC1)

(a) \(T_{avg}(h) < -50°C\) ou \(T_{avg}(h) > 60°C\) (ESTÉVEZ el al., 2011)

Onde:

  • \(T_{avg}(h)\) é a média aritmética simples de \(T_{min}(h)\) (temperatura mínima do ar) e \(T_{max}(h)\) (temperatura máxima do ar);

  • \(-50°C\) e \(60°C\) são, respectivamente, os limites mínimo e máximo instrumental;

(b) \(T_{avg}(h) < T_{low}\) ou \(T_{avg}(h) > T_{high}\) (ESTÉVEZ el al., 2011)

Onde:

  • \(T_{low}\) e \(T_{high}\) são, respectivamente, os valores mínimo e máximo já registrados pela estação climatológica mais próxima de cada EMA;

2.2.2 Persistência Temporal (QC2)

(a) \(T_{avg} (h) = T_{avg} (h-1) = T_{avg} (h-2) = ... = T_{avg} (h-n)\) (MEEK; HATFIELD, 1994)

Onde:

  • \(n\) é um número natural, correspondente à(s) hora(s) anteriores à \(T_{avg} (h)\);

2.2.3 Consistência Interna (QC3)

(a) \(T_{min}(h) ≥ T_{max}(h)\) (ESTÉVEZ el al., 2011)

Onde:

  • \(T_{min}(h)\) e \(T_{max}(h)\) são, respectivamente, os valores mínimo e máximo horário de temperatura;

(b) \(T_{inst}(h) < T_{min}(h)\) ou \(T_{inst}(h) > T_{max}(h)\)

Onde:

  • \(T_{inst}(h)\) é a temperatura instantânea do ar, que corresponde à média de um minuto de 12 valores de amostragens medidos a cada cinco segundos;

(c) \(T_{avg}(h) < T_{davg\_f}(h)\)

Onde:

  • \(T_{davg\_f}(h)\) é a temperatura média do ponto de orvalho, filtrada apenas com dados que passaram nos testes anteriores de QC3, aplicados para a variável \(T_{davg}(h)\) (temperatura média do ponto de orvalho horária);

(d) \(T_{avg}(d) < T_{min}(d)\) ou \(T_{avg}(d) > T_{max}(d)\) (MEEK; HATFIELD, 1994)

Onde:

  • \(T_{avg}(d)\) é média aritmética simples das \(T_{avg}(h)\);

  • \(T_{min}(d)\) é o menor valor de temperatura registrada no dia das \(T_{min}(h)\);

  • \(T_{max}(d)\) é o maior valor de temperatura registrada no dia das \(T_{max}(h)\);

(e) \(T_{max}(d) < T_{min}(d-1)\) (ESTÉVEZ el al., 2011)

Onde:

  • \(T_{min}(d-1)\) é a temperatura mínima do dia anterior;

(f) \(T_{min}(d) ≥ T_{max}(d-1)\) (ESTÉVEZ el al., 2011)

Onde:

  • \(T_{max}(d-1)\) é a temperatura máxima do dia anterior;

2.2.4 Consistência Temporal (QC4)

(a) \(|T_{avg}(h) - T_{avg}(h-dt)| > T_{tol} (dt)\) (WMO, 1993)

Onde:

  • \(dt\) são valorores correspondetes a uma determinada hora, sendo eles: 1h, 2h, 3h, 6h e 12h;

  • \(T_{tol} (dt)\) é um valor tolerável de temperatura, que varia com \(dt\), recebendo os seguintes valores respectivos: 4°C (1h), 7°C (2h), 9°C (3h), 15°C (6h) e 25°C (12h);

(b) Valente & Tatsch

2.2.5 Consistência Espacial (QC5)

2.2.6 Homogeneidade Temporal (QC6)

3. RESULTADOS

3.1 Limites do Intervalo de Variação (QC1)

(a) Das 80 EMAs , nenhuma apresentou dados suspeitos.

(b) Das 80 EMAs, 66 apresentaram dados suspeitos.

Tabela 02 – EMAs com maior número de dados considerados suspeitos no teste QC1b em ordem decrescente.

Figura 05 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC1b.

3.2 Persistência Temporal (QC2)

(a) Das 80 EMAs , 80 apresentaram dados suspeitos.

Tabela 03 – EMAs com maior número de dados considerados suspeitos no teste QC2a em ordem decrescente.

Figura 06 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC2a.

3.3 Consistência Interna (QC3)

(a) Das 80 EMAs , 80 apresentaram dados suspeitos.

Tabela 04 – EMAs com maior número de dados considerados suspeitos no teste QC3a em ordem decrescente.

Figura 07 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3a.

(b) Das 80 EMAs , 12 apresentaram dados suspeitos.

Tabela 04 – EMAs com maior número de dados considerados suspeitos no teste QC3b em ordem decrescente.

Figura 08 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3b.

(c) Das 80 EMAs , 45 apresentaram dados suspeitos.

Tabela 06 – EMAs com maior número de dados considerados suspeitos no teste QC3c em ordem decrescente.

Figura 09 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3c.

(d) Das 80 EMAs , nenhuma apresentou dados suspeitos.

(e) Das 80 EMAs , 57 apresentaram dados suspeitos.

Tabela 3.6 – EMAs com maior número de dados considerados suspeitos no teste QC3e em ordem decrescente.

Figura 10 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3e.

(f) Das 80 EMAs , 69 apresentaram dados suspeitos.

Tabela 08 – EMAs com maior número de dados considerados suspeitos no teste QC3f em ordem decrescente.

Figura 11 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3f.

3.4 Consistência Temporal (QC4)

(a) Este controle de qualidade é divido em partes, de acordo com a variação horária da temperatura.

  • Para 1 hora: Das 80 EMAs, 80 apresentaram dados suspeitos.

Tabela 09 – EMAs com maior número de dados considerados suspeitos no teste QC4a (1h) em ordem decrescente.

Figura 12 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (1h).

  • Para 2 hora: Das 80 EMAs, 80 apresentaram dados suspeitos.

Tabela 10 – EMAs com maior número de dados considerados suspeitos no teste QC4a (2h) em ordem decrescente.

Figura 13 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (2h).

  • Para 3 hora: Das 80 EMAs, 80 apresentaram dados suspeitos.

Tabela 11 – EMAs com maior número de dados considerados suspeitos no teste QC4a (3h) em ordem decrescente.

Figura 14 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (3h).

  • Para 6 hora: Das 80 EMAs, 72 apresentaram dados suspeitos.

Tabela 12 – EMAs com maior número de dados considerados suspeitos no teste QC4a (3h) em ordem decrescente.

Figura 15 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (6h).

  • Para 12 hora: Das 80 EMAs, 1 apresentou dados suspeitos.

Tabela 12 – EMAs com maior número de dados considerados suspeitos no teste QC4a (3h) em ordem decrescente.

(b) Valente & Tatsch

3.5 Consistência Espacial (QC5)

3.6 Homogeneidade Temporal (QC6)

3.7 Resumo dos Resultados

Tabela 13 – Total absoluto de dados considerados suspeitos em cada EMA.

* total de dados horários suspeitos detectados nos testes qc1a, qc1b, qc2a, qc3a, qc3b, qc3c e qc4a (1h, 2h, 3h, 6h e 12h);

** total de dados diários suspeitos detectados nos testes qc3d, qc3e e qc3f;

Figura 16 – Distribuição espacial das EMAs com maior quantidade absoluta de dados (a) horários e (b) diários considerados suspeitos

Tabela 14 – Total absoluto de dados considerados suspeitos em cada teste.

4. CONCLUSÃO

Somando os resultados dos testes, as estações que apresentaram o maior número de dados suspeitos foram A875 - General Carneiro com 10943 horas; A845 – Morro Da Igreja (Bom Jardim Da Serra) com 8465 horas; A834 – Tramandaí com 7825; A819 – Castro com 7778 horas; A862 – Rio Negrinho com 7382 horas; A851 – Itapoá; A878 – Mostardas com 7289; A866 – Laguna (Farol Santa Marta) com 7055; A873 – Morretes com 6595 horas e A831 – Quaraí com 6526 horas.

No geral, embora a maioria da estações meteorológicas automáticas tenham apresentado ao mínimo um teste onde foram detectados dados suspeitos, a porcentagem de dados suspeitos detectada em cada estação, em relação ao número total de horas de dados na mesma, é suficientemente pequeno.

5. REFERÊNCIAS BIBLIOGRÁFICAS

Carslaw, D. C. and K. Ropkins, (2012) openair — an R package for air quality data analysis. Environmental Modelling & Software. Volume 27-28, 52-61. https://cran.r-project.org/web/packages/openair/index.html

Edwin Thoen (2017). padr: Quickly Get Datetime Data Ready for Analysis. R package version 0.3.0. https://CRAN.R-project.org/package=padr

ESTÉVEZ, J. et al. Guidelines on validation procedures for meteorological data from automatic weather stations. Journal of Hydrology, p. 147, 2011. https://www.researchgate.net/profile/Vladimir_Kulchitsky/post/Who_is_assessing_the_quality_of_Net-Atmo_automated_weather_stations/attachment/59d63df579197b807799aa57/AS:422033134755841@1477631948607/download/Estevez+et+al.+2011.pdf

Garrett Grolemund, Hadley Wickham (2011). Dates and Times Made Easy with lubridate. Journal of Statistical Software, 40(3), 1-25. URL http://www.jstatsoft.org/v40/i03/.

Hadley Wickham, Romain Francois, Lionel Henry and Kirill Müller (2017). dplyr: A Grammar of Data Manipulation. R package version 0.7.4. https://CRAN.R-project.org/package=dplyr

H. Wickham. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2009 https://cran.r-project.org/web/packages/ggplot2/index.html

Hadley Wickham (2017). scales: Scale Functions for Visualization. R package version 0.5.0. https://CRAN.R-project.org/package=scales

Hadley Wickham (2017). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.2.0. https://CRAN.R-project.org/package=stringr

Hadley Wickham (2017). tidyverse: Easily Install and Load ‘Tidyverse’ Packages. R package version 1.1.1. https://CRAN.R-project.org/package=tidyverse

Hadley Wickham (2011). The Split-Apply-Combine Strategy for Data Analysis. Journal of Statistical Software, 40(1), 1-29. URL http://www.jstatsoft.org/v40/i01/.

Hao Zhu (2017). kableExtra: Construct Complex Table with ‘kable’ and Pipe Syntax. R package version 0.5.2. https://CRAN.R-project.org/package=kableExtra

INMET. Rede de Estações Meteorológicas Automáticas do INMET. NOTA TÉCNICA No. 001/2011/SEGER/LAIME/CSC/INMET, p. 4, 2011. http://www.inmet.gov.br/portal/css/content/topo_iframe/pdf/Nota_Tecnica-Rede_estacoes_INMET.pdf

MEEK, D. W.; HATFIELD, J. L. Data quality checking for single station meteorological databases. Agricultural and Forest Meteorology, p. 90-91, 1994. https://ac.els-cdn.com/0168192394900833/1-s2.0-0168192394900833-main.pdf?_tid=868c718a-0b8d-11e8-8581-00000aab0f26&acdnat=1517956491_41a505ab0f4dff5b801e7e33aab57b66

*KANNENBERG, C. DESAGREGAÇÃO DA TEMPERATURA DO AR DA ESCALA DIÁRIA PARA HORÁRIA PARA O SUL DO BRASIL, 2016, p. 24. Tese (TCC para obtenção do grau de Bacharel em Meteorologia) – Universidade Federal de Santa Maria, RS, 2016.

Robert J. Hijmans (2016). raster: Geographic Data Analysis and Modeling. R package version 2.5-8. https://CRAN.R-project.org/package=raster

Stefan Milton Bache and Hadley Wickham (2014). magrittr: A Forward-Pipe Operator for R. R package version 1.5. https://CRAN.R-project.org/package=magrittr

VAISALA. Automatic Weather Station MAWS301 INSTALLATION MANUAL. p. 66, 2002. http://www.eso.org/gen-fac/pubs/astclim/lachira/docs/Vaisala/User%20Guides/M010114en-B.pdf

VEJEN et al. Quality control of meteorological observations: Automatic Methods Used in the Nordic Countries. Norwegian Meteorological Institute, p. 11, 2002. https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjgneCYo5LZAhWNl5AKHWevC-cQFggzMAE&url=https%3A%2F%2Fwww.met.no%2Fpublikasjoner%2Fmet-report%2Fmet-report-2002%2F_%2Fattachment%2Fdownload%2F2fdbdbcf-2ae8-4bb3-86de-f7b5a6f11dae%3Ab322c47c99e9a34086013dfa7e4a915a383d2b42%2FMET-report-08-2002.pdf&usg=AOvVaw2iOII9wUFKYDayOfVnLgwv

WMO. GUIDE ON THE GLOBAL DATA-PROCESSING SYSTEM, p. VI.21, 1993. https://library.wmo.int/pmb_ged/wmo_305_en.pdf

WMO. Guide to Meteorological Instruments and Methods of Observation, p. 1, 2012. https://library.wmo.int/pmb_ged/wmo_8_en-2012.pdf

Yihui Xie (2016). DT: A Wrapper of the JavaScript Library ‘DataTables’. R package version 0.2. https://CRAN.R-project.org/package=DT

Yihui Xie (2017). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.17. https://cran.r-project.org/web/packages/knitr/index.html

ZAHUMENSKÝ, I. Guidelines on Quality Control Procedures for Data from Automatic Weather Stations. World Meteorological Organization, p. 3-4, 2004. https://www.wmo.int/pages/prog/www/IMOP/meetings/Surface/ET-STMT1_Geneva2004/Doc6.1(2).pdf